黄鹂智声:红海的降噪耳机市场,如何做出差异化竞争点? | Founder 100
TWS(True Wireless Stereo)耳机开创了耳机品类的新时代,其主动降噪功能一直是产品宣传中的重要卖点之一。实际上,降噪分成主动降噪(ANC)和环境降噪(ENC),ANC 的价值体现在听音效果上,ENC 的价值体现在通话效果上。虽然 TWS 耳机也在通话降噪方面下功夫,不过现实情况却是,当下大部分 TWS 耳机虽然也在关注并集成通话降噪技术,但通话降噪的效果并不好。
国内智能声音处理技术与产品公司黄鹂智声一直在跟这个问题死磕,他们的目标是通话降噪的效果达到「灭噪」级别,即在嘈杂的环境中通话,通话对方也只能听见通话者个人声音。他们首先瞄准的,是商用场景的客户,「(产品上)没有太多工业设计上的创新,但是最核心的是技术效果——通话灭噪。虽然其他产品也有一定的降噪功能,但在绝大部分用户使用的场景中,我们完全可以做到灭噪,这是核心的差异化。」黄鹂智声创始人 & CEO 刘志向我们介绍了他们产品的早期方向。
随着移动办公、混合办公的需求越来越多,普通消费者对于通话降噪的需求也更为迫切,这就有了黄鹂智声新推出的面向普通消费者的 气导开放式蓝牙通话耳机——P200b,续航更长、灭噪效果更好。
事实上,对于黄鹂智声来说,他们的声音降噪技术的进步,也是得益于 AI 技术的进步,「将传统物理方法和深度学习进行了深度融合。在不断探索的过程中,2015 年才开始有所突破。」
降噪的难点到底在哪里?AI 降噪和传统降噪区别是什么?以及,AIGC 应用越来越广的未来,声音智能化的未来在哪里?关于这些问题,我们也和刘志聊了聊。
在各类复杂的噪声场景当中把目标声音清晰地进行采集,这是我们的核心能力。在应用场景上来说,噪声越复杂、越大我们就越高兴,因为挑战也越大。
从业者都知道语音不好做,因为问题很复杂,语音其实比图像处理难得多。
单就声音来说,可以把它类比到图像的处理,今天图像智能化能做的很多事情,声音都可以,像语音识别对应图像识别、声纹识别对应人脸识别、声音情绪感知对应图像情感分类等。
今天还谈不到(产品的)终极形态,更多是演进。第一是小型化,第二智能化,第三集成化。
01
通话灭噪是
产品核心的差异点
Founder Park:目前这款灭噪耳机,你最满意的点是什么?还不满意的点是什么?
刘志:就我们团队来说,比较满意的点是用了 3 年时间,从商用产品——以前大家很熟悉的头戴式产品,到推出了第一款面向消费端的产品形态,更加便携,舒适性也更好。从用户反馈来看,确实感受到很多用户的喜爱。但产品改进是没有止境的,接下来会考虑怎样把它做得更加小巧、更加便携。虽然现在的形态比以前耳包式的要好,但实际上今天更多用户还是喜欢像 TWS 这类形态的。
这里还有很多矛盾要解决,比如怎么让使用时长更长,今天很多的场景,参加一个线上会议可能需要 3-4 个小时,甚至更长时间,大量 TWS 耳机实际上满足不了这样的需求,我们目前这款耳机现在续航时间比较久,通话 10 个小时,听音乐可以 16 个小时,而且新版的续航时间还会更长。
黄鹂智声 P200b | 来源:黄鹂智声官网
Founder Park:客户对你们的认可最核心的点是什么?他们是如何使用你们的产品的?
刘志:2019 年 8 月份成立公司,2020 年推出第一款产品,在 2022 年前我们推了几款商用式耳机。之前我们的客户大部分都是商用客户,主要涵盖三个领域:企业办公、呼叫中心和教育教学。疫情期间全国有几万名老师使用我们的耳机产品在线授课,很多老师家里比较嘈杂,孩子、家人,有的还养狗,给学生上课的时候会担心噪声传到课堂上,用了我们的产品之后,这些完全可以避免。还有呼叫中心和很多办公场景这种非常嘈杂的场景,使用我们的产品之后,完全是安静的。
客户对我们最满意的一点就是真的灭噪,有的客户甚至跑到广场舞大妈旁边打电话给朋友测试,广场舞这么大的噪声都没有问题。灭噪级的通话效果确实打动了很多用户,而且他们在使用场景中也真的有这样的需求。我们之前的商用客户主要集中在国内,在推出消费端产品之后,去年尝试了海外的众筹,在海外的 Kickstarter 和 Indiegogo 平台上,作为音频会议类的新产品,我们取得了整个细分领域的第一名,筹到了 50 多万美金,大概有 4000 多个客户,来自全球 80 多个国家和地区。
Founder Park:你们是如何产品化的?产品化探索中遇到了哪些难点问题?解决的最核心的场景问题是什么?
刘志:我是技术出身,选择去做智能硬件产品,虽然做了很多心理建设,但是真正进入到这个领域之后,就真的是「痛并快乐着」。最开始两年我们都是在做商用端的产品,当时我们的定义是不要做产品的创新,所以对标的都是像捷波朗、缤特力这些传统的商务耳机,形态是头戴式包耳,带一个麦克风杆。第一代产品内部代号叫大笨丑,没有太多工业设计上的创新,但是最核心的是技术效果——通话灭噪。虽然其他产品也有一定的降噪功能,但在绝大部分用户使用的场景中,我们完全可以做到灭噪,这是核心的差异化。
我们主打灭噪的概念,通过两年多的时间,一方面不断完善我们对产品的理解,另外最重要的是通过这个过程,我们验证了技术的价值,真的有很多场景下的用户有这样的需求,不希望周边任何杂音传到外面。对于这类用户,验证价值之后,我们发现他们实际上不是传统商用耳机定义的市场用户,很多购买者就是普通消费者,包括老师群体等,以前在线教育公司、学校会给老师进行整体采购,但是今天很多老师自己主动有这样的需求,传统耳机对他们来说使用起来很不方便,而且随着移动办公、混合办公的需求出现之后,市面上没有好的产品能够满足这样的新需求。
从 2021 年年底开始,在我们意识到这个问题之后,觉得有必要推出一款面向消费端的产品。但没有可参照的成熟产品,基本没有哪一款产品是为这个用途打造的。不过还是有大量好的工业设计案例可以参考,我们现在推出的这款 P2000b,从 2021 年开始设计,我们收集了之前关于各种通话耳机产品的讨论——大概四五千条用户觉得好的和吐槽的点,也用了一些 AI 技术去分析产品背后用户到底觉得哪些地方好,哪些地方不行。像 TWS 耳机,实际上很多用户也用它通话。主要存在几个核心问题,一是通话效果在一些嘈杂场景中无法保证,第二个是续航,第三是长时间佩戴难受。而过往的头戴式耳机不便携,夏天的时候很热,舒适性特别不好。
缤特力 5200 | 来源:互联网
之前也有一种产品形态是单耳的耳挂式耳机,以缤特力 5200 为代表,实际上降噪效果也还不错,在我们的产品出来之前它应该是降噪效果最好的,舒适性和续航都不错,但是它最大的问题是只能用于通话,没办法兼顾其它需求,想用来听音乐、运动、健身等等完全不行。所以这类产品实际上都有它的短板,而这也是我们的机会,经过半年多的市场调研以及一些潜在用户的走访,我们定义了我们这款产品的几个核心指标:首先就是随时随地清晰通话,让通话的对方听得清清楚楚;其次作为一款开放式耳机,在嘈杂场景下用户自己听不清怎么办?我们引入了一个动态调节技术,保证在地铁里通话自己也能听清;第三点,要满足一整天的续航和舒适佩戴。
作为一款开放式的耳机,开放可以满足各种场景,现在很多时候开车要接电话或开会,如果是耳塞把耳朵捂住,对安全会有影响。我们的定义是在各类复杂的噪声场景当中把目标声音清晰地进行采集,这是我们的核心能力。在应用场景上来说,噪声越复杂、越大我们就越高兴,因为挑战也越大。
Founder Park:有可能把通话和收音降噪结合做一款耳机吗?
刘志:我们有一款头戴式的,既有通话降噪,又有听音降噪,接下来会在入耳式的 TWS 形态中将两者完美结合在一起。这个需求是有的,而且实现并不困难。因为收音降噪技术很成熟了。从产品形态上来看,我们会不断推出更符合用户的使用场景,但我们也观察到一个问题,没有哪款产品能解决用户所有问题,苹果也不行,但是用户的一些共性需求是我们会特别关注的。
AI 降噪的核心是
提取有用的声音
Founder Park:有一种说法「语音是科学家的坟墓」,为什么会有这样的说法?你怎么还选择了这样一个看似没有前途的研究方向?
刘志:「语音是科学家的坟墓」差不多是我在读研究生时,20 年前的一个调侃,语音、图像和文本是人工智能的三个大方向,一定有很多值得去研究的。为什么大家觉得不好做?从业者都知道语音不好做,因为问题很复杂,语音其实比图像处理难得多。我当年研究生课题选择的就是噪声环境下的语音识别,那个时候语音识别就很难,噪声环境下的更难。我们最早搞模式识别这些,其实都可以算到今天以深度学习为代表的人工智能范畴。
整个语音的发展史有五六十年,中间也历经了很多大家会觉得好像很有希望突破的点,但是最后发现效果上还是没有办法让用户满意。当年四六级的口语考试就是我们团队来承接的,我们在实验室里调得非常好的,用机器去评价学生口语的一个系统,到了真实环境一看,几十个学生坐在一起,每个孩子都生怕机器听不见,都声嘶力竭地喊,结果声音完全串在一起。这也让我们意识到,声音前端降噪灭噪的问题非处理不可,声音后端很多应用起不来跟这点也有关系。今天深度学习出来之后,像语音识别、声纹识别等一系列和声音相关的应用,其实已经在安静环境下能达到非常好的水平,但是一旦到噪声环境,实际效果还是会大打折扣。这也是未来我们的技术可以发挥作用的场景。
Founder Park:你之前接受采访,曾经谈到:「团队认识到噪声对声音信息的严重影响,因此下定决心要解决噪声干扰的问题,历经十余年的探索,终于走出了一条行之有效的路径。」为什么花了这么多的时间,被卡在了哪些问题之上?
刘志:声音的前端处理有三个大的难点。
第一,在降噪的同时怎么保证声音的低失真,这是所有做前端处理都不可避免会遇到的问题。AirPods 用的是高通 CVC 的技术,也是很顶级的技术。但是它有两个问题,第一个是噪声依然还存在,做不到灭噪的效果。第二它在降噪的同时,有时候会把目标声音、原始的声音变得失真。
第二个难点是,怎么在各种复杂的噪声场景中都能稳定有效。今天的噪声场景越来越复杂,各种噪声混合在一起,有稳态的非稳态的,线性的非线性的,单一的手段很难保证在各种环境中都能稳定可靠地实现降噪效果。
第三个难点是实时性,我们也有很多处理,原来像电视台、广播电台,他们有非常复杂的设备来对外场采回来的声音做降噪处理,相当于把噪声进行分门别类,分析里面都有哪些噪声种类,一个一个滤除。但这种处理要花很长时间,大部分应用是没有办法去结合的,通信也好,人机交互也好,不可能过半个小时处理完再给到用户,实际上它的应用非常受限。
这三个难点问题是相互叠加在一起的,整件事情也是在深度学习有了一定突破之后,才有了新的发展。但即便是这样,我们最后发现还是有非常多的弯路要走。单纯的深度学习有两个大的问题,第一个问题是太复杂,模型如果太小,效果不好。第二个问题是黑盒效应,很多时候我们没办法判断它的问题出在什么地方。所以我们采用的技术路线是把传统物理方法和深度学习进行了深度融合。在不断探索的过程中,2015 年才开始有所突破,但刚开始运算的复杂度还是很高,后面我们考虑怎么把它做到小型化,做到芯片上。所以实际上是从算法原理出发到把物理模型和深度学习融合,到做小型化,到做软硬件结合的优化,这是一个漫长的历程。
刘志参与 Founder Park 的直播节目 | 来源:现场拍摄
Founder Park:投资人总喜欢谈信号与噪音,作为声音科学家,比较好奇你们是如何定义噪声的?哪种噪音是最难处理的?
刘志:关于噪音问题,科学家的视角和创业者的视角不一样,从科学定义上来说,在声音信号的采集、传输处理过程中引入的干扰都叫噪音,但是在创业做产品的时候,我们发现噪音是跟场景相关的,比如一个多人说话的场景,这些人声都要拾取,而周边各种各样的比如空调、马路的路噪,旁边车辆的声音,这些是噪音。但是一个人直播或者会议的场景,旁边的人声就会变成噪音。一切用户不想要的,都可以叫做噪音。这极大增加了噪音处理的难度,因为跟场景息息相关。很多时候我们不能只站在科学家的角度去看问题,要真正解决现实世界的问题。
比较难处理的,典型就是风噪,想象一下,骑车的时候给别人打电话,像外卖小哥有时骑着车给我打电话,真的听不到他说什么。因为背景有呼呼的风声,虽然也是噪音,但是它的形成机理和通常意义上的噪声不一样。这是对麦克风直接的冲击,物理冲击会形成过饱和,会更难处理,但也不是没有方法,我们现在也在用各种物理方法,加上一些声学的结构去降低直至把它消灭。
Founder Park:用 AI 解决噪音问题目前还有哪些比较难的点?
刘志:在 AI 之前,解决噪声的思路有点不太一样。AI 之前,是以去除噪音为主,而在 AI 之后,是如何更有效提取有用声音。
最早解决噪声问题是针对稳态噪声,经典的一个案例就是阿波罗登月的时候,太空会有非常强的空间辐射,在通信的过程中引入了巨大的噪声,但是这个噪声特点是稳态的,通过对空间辐射进行分析,基于特征来把它从带噪的声音当中滤除掉。所以最早的方法通常叫滤波法,因为它的特性和人声的特性差别还挺大的,又是稳定的,就比较容易。像发动机、空调、冰箱发出的声音,包括吸尘器运动时发出的声音也是恒定的,基本上不变,这一类我们叫稳态噪声。
但实际上生活中有大量的非稳态噪声,在深度学习之前,我们又有第二种方法,借助雷达的模式,我们叫做 beamforming,通过多个麦克风形成阵列去指向目标,当然指向性不是一个完美的指向性,不是把指向之外的这些噪声全部屏蔽掉,但是它有一个很好的对噪声进行降低的作用,我们叫空间指向性。
AI 出来后,在这个方向上确实带来很多新的可能性,但不代表这件事情就简单了。首先噪声问题和场景的关系非常复杂,很多场景我们也没有办法纯用 AI 的方式,比如我们提取人声,旁边的人声不想要怎么办?这个时候我们要用多种技术的叠加,纯 AI 解决不了这个问题。有时候我们用声纹,就像指纹一样,每个人的声音都有自己独特的生物特征,声纹可以做开锁检测。声纹检测是在模式识别领域,或者在人工智能领域最早机器超过人的。人对声音是敏感,但是对声纹的信息,敏感度有时候比不上机器。后来很多图像识别、语音识别超过人类都是花了很长时间,两个人说同样一句话,表达的声音特点完全不一样,所以声纹可以用来做一些区分。
第二,我们知道声音的采集实际上和使用的环境非常相关,产品需要将软件和硬件以及声学几个方面综合在一起,而纯粹的 AI 模型对硬件实际上没法把控的,随便一个设备录的声音传给 AI 模型进行处理,对 AI 来说丢失了很多信息。最原始的采集设备的类型,它们的方位、相互之间的物理关系,这些信息在纯粹 AI 模型里丢失了,而这些信息在声音的前端处理方面恰恰很多时候是非常关键的。
智能化、小型化是
声音产品的未来发展方向
Founder Park:你们怎么定义自己的公司?目前专注于硬件方案还是软件方案?
刘志:对于黄鹂智声来说,我们的定位非常清晰——我们是一家技术型企业,做声音前端处理技术的企业。因为这是整个声音产业链里前端的一个技术,可以赋能的场景和产品非常的多。我们最核心的是源源不断地在不同场景中去把降噪这件事情真的做到灭噪级,达到最终用户的需求。
另一方面也恰恰因为它涉及很多场景,所以其中一部分领域,我们选择了自己做智能硬件,可以更快地让更多专业用户乃至普通消费者都能了解到我们的技术和产品。
我们团队在现阶段还是会立足于更极致的降噪体验以及软硬件结合,这是我们的传统优势所在。但是随着越来越多的需求得到应用,尤其是后端的很多应用,反过来会倒推着前端去走。未来一定是有云上、端上的和云加端的各种不同的解决方案,去满足不同场景的一些需求。
Founder Park:对于产品相对终极的形态,你们的想象是怎样的?
刘志:今天还谈不到终极形态,更多是演进。第一是小型化,第二智能化,第三集成化。
首先我们的核心是前端灭噪级的通话技术,只要通话的需求在、人机交互的需求在,我认为我们的市场空间就一直存在。但是在产品的演进上,目前形态的产品仍然不够小、不够智能。我们目前只集成了通话智能,还有大量比如人机交互智能、人人交互、翻译智能等。未来我们的通信技术是会随着产品形态的演变不断发展,可能耳机会和眼镜、手表或其他产品形态合而为一。集成化是我们所坚守的核心,相信未来通信的需求、人机交互的需求只会越来越多,而这就是我们核心技术的价值。
Founder Park:消费端的 AR 硬件是不是有很大的需求?未来还会有哪些商业场景?
刘志:目前声音有三大应用方向,第一个,通信——人和人之间的通话。第二,人机交互,以语音识别为代表,目的是让机器听懂人。未来还有第三个大的应用方向——声音的物联网。举个例子,比如我们在工厂产线上,某一个设备出现了故障,基本上这些设备的故障都是可以通过声音去判定的。一旦通过声音采集设备判别之后,机器人可以马上去检修。在家庭场景当中,扫地机器人听到家里一个杯子掉在地上,自动跑过去把这个地方清扫干净等等。
在接下来的需求增长中人机交互已经是能够看到的,今天的人机交互效果还不够好,很大一个原因就是噪声问题。再往后声音物联网一定是想象空间更大的,尤其是越来越多减少人的干预。比如未来车不用人去开了,无人驾驶连司机都没有了。这个时候出现故障靠什么去检测?声音传感在其中非常重要。
我们认为未来有一个概念叫声音的元宇宙,今天 AR、VR 更多是解决视觉上的问题,把视觉的形象虚拟化、数字化,但实际上声音同样需要数字化、虚拟化。这里面非常重要的一个点在于要把声音清晰地采集下来,类似于图像里的抠图,可以理解成抠音,把声音抠出来。未来实际上是要对整个场景中的这些声音去做分离。对所有发出的各种声音分离,去进行场景分析,人的声音、动物的声音、噪声、风的声音等等各种声音,都能把它们分门别类出来,为整个声音的元宇宙打下了非常坚实的基础。这些声音我们可以做各种变化、组合,把它们映射到虚拟空间、元宇宙的空间里面再去进行加工处理。
Founder Park:最近 ChatGPT 引起了很多讨论,声音智能化处理未来还有哪些新的方向值得关注?
刘志:声音的应用方向非常多,刚才提到 ChatGPT,实际上声音和文本的理解、自然语言的理解是最紧密的结合。
苹果手机上第一款语音拨号软件就是我们团队做的,那时候 Siri 没出来。后来这个方向我们主动放弃了,因为发现要有大量的自然语言理解的技术加持才真的好用。未来,大量不同技术叠加在一起之后才真正打开了智能化的想象空间。单就声音来说,可以把它类比到图像的处理,今天图像智能化能做的很多事情,声音都可以,像语音识别、声纹识别、情感感知等,声音可以传递情感,同样一句话用不同语气说出来,意义都不一样,包括声音的测评,未来智能化的空间真的非常巨大。而更重要的就是,声音智能和其它感知智能、认知智能相结合带来的未来想象空间,可能又是一个改天换地的赛道。最近我也在体验 ChatGPT,感觉很有意思,今天还是用文本去进行交互,未来想象一下,真的就是一个机器人和我们对话,嵌入了语音的相关技术,嵌入了 ChatGPT 的 NLP 技术,以假乱真,从旁观者的角度上,会觉得就是一个有思想的人,这种感受是完全不一样的。
*以上嘉宾观点不代表 Founder Park 立场,也不构成任何投资建议。
公司:黄鹂智能
领域:音频处理、智能硬件、人工智能、消费数码
融资状态:天使轮,千万级人民币
主要投资人:汇芯投资、深创投索斯福、源政投资、清智资本
官方网站:http://www.huangliai.com/
清华大学工学硕士,高级工程师,拥有 20 年智能声音领域创新创业经验,先后研发苹果手机首款语音拨号软件、CET 口语自动测评技术与系统、聆声智能声音前端处理技术解决方案等重大项目,曾获北京市科技进步奖等多项荣誉,拥有专利数十项。
黄鹂智声成立于 2019 年,聚焦于声音前端处理技术和相关产品的研发、应用和服务,通过信号处理、深度学习、听觉场景分析等技术的融合,在各类噪声环境下实现声音的清晰拾取。2022 年,该公司宣布获得千万级人民币天使轮融资。
更多科技创业者的采访,欢迎在小宇宙或者苹果播客收听我们的播客节目「Founder 100」。